﻿using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Text.RegularExpressions;
using System.Data.SqlClient;
using System.Globalization;

namespace TratamentoRIWikipedia.processamento
{
    class AnaliseLexica
    {
        /// <summary>
        /// Etapa 1 analise lexica, removendo acentos
        /// </summary>
        /// <param name="input"></param>
        /// <returns></returns>
        public static string RemoveAcentos(string input)
        {
            if (string.IsNullOrEmpty(input))
                return "";
            else
            {
                byte[] bytes = System.Text.Encoding.GetEncoding("iso-8859-8").GetBytes(input);
                return System.Text.Encoding.UTF8.GetString(bytes);
            }
        }

        /// <summary>
        /// Remove Caracteres especiais /URL / REF 
        /// </summary>
        /// <param name="valor"></param>
        /// <returns></returns>
        public static string RemoveCaracterEspecial(string valor)
        {
            valor = Regex.Replace(valor, @"\<ref.*\</ref>", " ");//<ref name="new solar system">{{cite book| editor=Beatty, J.K.; Petersen, C.C.; Chaikin, A.|title=The New Solar System|publisher=Cambridge press|url=http://books.google.com/books?id=iOezyHMVAMcC&pg=PA70|page=70edition = 4th|year=1999|isbn =0-521-64587-5 }}</ref>
            valor = Regex.Replace(valor, @"\[\[ficheiro.*\]\]", " ");//Remove ficheiro
            valor = Regex.Replace(valor,@"http.*\s", " ");//Remove http
            valor = Regex.Replace(valor,@"url=", " ");//Remove url
            valor = Regex.Replace(valor, @"<[^>]*>", " ");//Remove tags
            valor = Regex.Replace(valor, "[^0-9a-zA-Z]+", " ");  //Recebe texto sem acentos e em caixa baixa para remover caracteres especiais
            return valor;
        }

    }
}
